再说 order by 优化
一 前言
为什么是再说呢?因为前面已经写过 《order by 原理以及优化》 ,介绍order by 的基本原理以及优化。如果觉得对order by原理了解不透彻可以参考其他同行的文章《MySQL排序内部原理探秘》.本文是基于官网文档的二刷(基本翻译+测试验证),看完本文大部分开发同学可以了解到什么样的select + order by 语句可以使用索引,什么样的不能利用到索引排序。
二 分析
2.1 官方标准介绍
对于select order by语句如何能够利用到索引,官方表述如下:
"The index can also be used even if the ORDER BY does not match the index exactly, as long as all of the unused portions of the index and all the extra ORDER BY columns are constants in the WHERE clause."
翻译一下就是 即使ORDER BY语句不能精确匹配(组合)索引列也能使用索引,只要WHERE条件中的所有未使用的索引部分和所有额外的ORDER BY列为常数就行。如何理解这句话呢?我们通过具体用例来解释。
2.2 准备工作
CREATE TABLE `tx` (
`id` int(11) NOT NULL AUTO_INCREMENT COMMENT '记录ID',
`shid` int(11) NOT NULL COMMENT '商店ID',
`gid` int(11) NOT NULL COMMENT '物品ID',
`type` tinyint(1) NOT NULL COMMENT '支付方式',
`price` int(10) NOT NULL COMMENT '物品价格',
`comment` varchar(200) NOT NULL COMMENT '备注',
PRIMARY KEY (`id`),
UNIQUE KEY `uniq_shid_gid` (`shid`,`gid`),
KEY `idx_price` (`price`),
KEY `idx_type` (`type`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 ;
INSERT INTO `tx` (`shid`, `gid`, `type`, `price`, `comment`) VALUES (6, 2, 0, '399', '2'),(6, 5, 0, '288', '2'),(6, 11, 0, '10','2'),
(1, 1, 0, '10', 'sd'), (2, 55, 0, '210', 'sa'),
(2, 33, 1, '999', 'a'), (3, 17, 0, '198', 'b'),
(3, 22, 1, '800', 'e'), (4, 12, 0, '120', 'f'),
(4, 73, 0, '250', 'd'),(5, 61, 0, '10', 'c'),
(6, 1, 0, '210', '2'), (7, 9, 1, '999', '44'),
(7, 2, 0, '198', '45'), (8, 3, 1, '800', 'rt'),
(9, 4, 0, '120', 'pr'), (9, 6, 0, '250', 'x'),
(10, 8, 0, '10', 'w'), (12, 9, 0, '210', 'w'),
(12, 10, 1, '999', 'q'), (13, 11, 0, '198', ''),
(13, 12, 1, '800', ''), (14, 13, 0, '120', ''),
(14, 19, 0, '250', '');
CREATE TABLE `goods_type` (
`id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'ID',
`type` int NOT NULL COMMENT '类型',
`name` varchar(20) NOT NULL COMMENT '名称',
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;
INSERT INTO `goods_type` (`id`, `type`, `name`) VALUES
(1, 1, 'hw手机'), (2, 0, 'xiaomi'), (3, 1, 'apple')
2.3 能够利用索引的例子分析
官方的文档 中介绍有7个例子可以使用索引进行排序。如果使用explain/desc工具查看执行计划中的extra中出现了Using filesort则说明sql没有用到排序优化。
案例一
SELECT * FROM t1 ORDER BY key_part1,key_part2,...;
分析:
显然上述sql没有利用到索引排序. type=ALL Extra=Using filesort,因为where字句没有条件,优化器选择全表扫描和内存排序。
分析:
从type=index,extra=Using index 可以看出当select 的字段包含在索引中时,能利用到索引排序功能,进行覆盖索引扫描。使用select * 则不能利用覆盖索引扫描且由于where语句没有具体条件MySQL选择了全表扫描且进行了排序操作。
案例二
SELECT * FROM t1 WHERE key_part1 = constant ORDER BY key_part2;
使用组合索引中的一部分做等值查询 ,另一部分作为排序字段。更严谨的说法是where条件使用组合索引的左前缀等值查询,使用剩余字段进行order by排序。
分析:
where 条件字句可以基于 shid 进行索引查找并且利用(shid,gid)中gid的有序性避免额外的排序工作。我们基于本例解释"即使ORDER BY语句不能精确匹配(组合)索引列也能使用索引,只要WHERE条件中的所有未使用的索引部分和所有额外的ORDER BY列为常数就行。"
该语句的order by gid 并未精确匹配到组合索引(shid,gid),where条件 shid利用了组合索引的最左前缀且为等值常量查询,对order by 而言shid就是额外的字段,没有出现在order by子句中却是组合索引的一部分。这样的条件既可以使用索引来排序。
案例三
SELECT * FROM t1 ORDER BY key_part1 DESC, key_part2 DESC;
其实和案例一 类似,只是选择了倒序。该sql不能利用索引的有序性,需要server层进行排序。
案例四
SELECT * FROM t1 WHERE keypart1 = 1 ORDER BY keypart1 DESC, key_part2 DESC;
本例和案例二类似,只是order by 字句中包含所有的组合索引列。
分析:
where shid=4 可以利用shid的索引定位数据记录,select * 有不在索引里面的字段,所以回表访问组合索引列之外的数据,利用了gid索引的有序性避免了排序工作。
案例五
SELECT * FROM t1 WHERE key_part1 > constant ORDER BY key_part1 ASC;
SELECT * FROM t1 WHERE key_part1 < constant ORDER BY key_part1 DESC;
分析:
表总共24行,其中大于5的有16行,大于13的2行,导致MySQL优化器选择了不同的执行计划。这个测试说明和shid的区分度有关。
案例六
SELECT * FROM t1 WHERE key_part1 = constant1 AND key_part2 > constant2 ORDER BY key_part2;
利用组合索引前缀索引进行ref等值查询,其他字段进行范围查询,order by 非等值的字段。
分析:
利用shid=6的进行索引查询记录到了MySQL的ICP特性,无排序操作。
2.4 不能利用索引排序的分析
案例一 order by语句使用了多个不同的索引
SELECT * FROM t1 ORDER BY key1, key2;
因为sql使用了不同的索引列,在存储上顺序存在不一致的可能性,MySQL会选择排序操作。
特例因为所有的辅助索引里面都包含主键id,当where 字段加上order by字段沟通完整的索引时 ,可以避免filesort的。
案例二当查询条件使用了与order by不同的其他的索引,且值为常量,但排序字段是另一个联合索引的非连续部分时
SELECT * FROM t1 WHERE key2=constant ORDER BY keypart1, keypart3;
与案例一一致,key2 的顺序语句key1(key_part1)存储排序不一样的情况下,MySQL 都会选择filesort 。
案例三order by 语句使用了和组合索引默认不同的排序规则
SELECT * FROM t1 ORDER BY keypart1 DESC, keypart2 ASC;
官方文档中提示使用混合索引排序规则会导致额外排序,其实我们创建索引的时候可以做 (keypart1 DESC, keypart2 ASC)
案例四当where 条件中利用的索引与order by 索引不同时,与案例二有相似性。
SELECT * FROM t1 WHERE key2=constant ORDER BY key1;
案例的sql 利用了idxtype 索引,但是order 使用了shid,gid 字段,没有包含在idxtype 索引里面,故不能利用idx_type索引排序。
案例五order by 字段使用了表达式
SELECT * FROM t1 ORDER BY ABS(key);
SELECT * FROM t1 ORDER BY -key;
分析:order by 的字段使用函数,和在where条件中使用函数索引一样 ,MySQL都无法利用到索引。
案例六
The query joins many tables, and the columns in the ORDER BY are not all from the first nonconstant table that is used to retrieve rows.
(This is the first table in the EXPLAIN output that does not have a const join type.)
当查询语句是多表连接,并且ORDER BY中的列并不是全部来自第1个用于搜索行的非常量表.(这是EXPLAIN输出中的没有使用const联接类型的第1个表)
分析:
出现join的情况下不能利用索引其实有很多种,只要对a的访问不满足上面说的可以利用索引排序的情况都会导致额外的排序动作。但是当where + order 复合要求,order by 有包含了其他表的列就会导致额外的排序动作。
案例七sql中包含的order by 列与group by 列不一致 。
group by 本身会进行排序的操作,我们可以显示的注让group by不进行额外的排序动作。
案例八索引本身不支持排序存储 比如,hash索引。
CREATE TABLE `hash_test` (
`id` int(10) unsigned NOT NULL AUTO_INCREMENT ,
`name` varchar(20) NOT NULL COMMENT '名称',
PRIMARY KEY (`id`),
KEY `name` (`name`)
) ENGINE=MEMORY ;
INSERT INTO `hash_test` (`id`, `name`) VALUES (1, '张三'), (2, '李四');
分析
hash 索引本身不支持排序存储,故不能利用到排序特性,将表转化为innodb再次查询,避免了filesort。
案例九order by的索引使用部分字符串 比如 key idx_name(name(2))
三 老生常谈的优化策略
为了提高order by 查询的速度,尽可能的利用索引的有序性进行排序,如果不能利用索引排序的功能,那么我们只能退而求其次优化order by相关的缓存参数
1 增加 sort_buffer_size 大小,建议sort_buffer_size要足够大能够避免磁盘排序和合并排序次数。
2 增加 read_rnd_buffer_size 大小。
3 使用合适的列大小存储具体的内容,比如对于city字段 varchar(20)比varchar(200)能获取更好的性能。
4 将tmpdir 目录指定到os上面有足够空间的具有比较高iops能力的存储上。
四 推荐文章
[1] 官方文档
[3] MySQL排序原理与案例分析
[4] order by 原理以及优化
-The End-
本公众号长期关注于数据库技术以及性能优化,故障案例分析,数据库运维技术知识分享,个人成长和自我管理等主题,欢迎扫码关注。